最近的工作表明,培训的型号训练在相同的目标,并实现了对一致的测试数据的类似准确度的措施,尽管如此,仍可能对个体预测中的表现非常不同。这种不一致在高赌注环境中是不可取的,例如医学诊断和金融。我们表明,这种不一致的行为超出了对特征归因的预测,这同样对模型的可懂度具有负面影响,以及一个能够找到对象的追索权的能力。然后,我们将通过应用假设测试对使用随机选择的起始条件训练的一组模型的预测来减轻这些不一致的选择性合并来减轻这种不一致;重要的是,选择性集合可以在无法实现一致结果无法实现指定的置信水平的情况下弃权。我们证明了选择性集合之间的预测分歧是有界的,并且经验证明了选择性集合在保持低弃权率的同时实现一致的预测和特征归因。在几个基准数据集中,选择性集合达到零不一致预测点,额外的速率低1.5%。
translated by 谷歌翻译